在社交媒体上分享了反疫苗职位,包括误导性帖子,并展示了在疫苗中产生混淆并减少了公众信心,导致疫苗犹豫不决。近年来目睹了在网上网络中各种语言和视觉形态的这种反疫苗柱的快速崛起,对有效内容适度和跟踪构成了巨大挑战。在利用文本信息上扩展了以前的工作以了解疫苗信息,本文介绍了INSTA-VAX,这是一个新的多模态数据集,包括与人类疫苗相关的64,957件Instagram帖子的样本。我们应用了两个培训的专家法官验证的众群注释程序到此数据集。然后,我们将几个最先进的NLP和计算机视觉分类器标记为检测帖子是否显示出反疫苗态度以及它们是否包含错误信息。广泛的实验和分析证明了多模式模型可以比单模模型更准确地将帖子分类,但仍需要改进,特别是在视觉情绪理解和外部知识合作。数据集和分类机有助于监测和跟踪疫苗讨论的社会科学和公共卫生努力,在打击疫苗错误信息问题。
translated by 谷歌翻译
在过去的三十年中,规划界一直探索了无数的数据驱动模型采集方法。这些范围是复杂的(例如,简单的设置操作到全面的重新汇总),方法论(例如,基于逻辑的基于逻辑与基于策划)和假设(例如,完全与部分可观察到)。该空间中不少于43个出版物,了解在新环境中应该或应该采用哪种方法可能是压倒性的。我们提出了动作模型采集空间的整体表征,并进一步引入了自动化动作模型采集的统一框架。我们已经重新实现了该地区的一些具有里程碑意义的方法,我们对所有技术的表征都深入了解了剩下的研究机会。即,那些无法解决技术的设置。
translated by 谷歌翻译
虽然印度是Covid-19的热点之一,但来自该国的大流行的数据已被证明在规模上很大程度上无法进入。在网络上的非结构化形式中存在大部分数据,并且通过志愿者努力通过手动维护的公共API获得了有限的方面。这在易于获取详细数据和维护手动数据随时间的维护方面,这一直困难。本文有关我们在古典PDF解析器和最先进的机器学习技术的帮助下自动化公共卫生公告的提取自动提取这些数据的努力。在本文中,我们将描述自动化数据提取技术,所生成的数据的性质,以及正在进行的工作的令人兴奋的途径。
translated by 谷歌翻译